我们假设现有的句子级机器翻译(MT)指标在人类参考包含歧义时会效率降低。为了验证这一假设,我们提出了一种非常简单的方法,用于扩展预审计的指标以在文档级别合并上下文。我们将我们的方法应用于三个流行的指标,即Bertscore,Prism和Comet,以及无参考的公制Comet-QE。我们使用提供的MQM注释评估WMT 2021指标共享任务的扩展指标。我们的结果表明,扩展指标的表现在约85%的测试条件下优于其句子级别的级别,而在排除低质量人类参考的结果时。此外,我们表明我们的文档级扩展大大提高了其对话语现象任务的准确性,从而优于专用基线高达6.1%。我们的实验结果支持我们的初始假设,并表明对指标的简单扩展使他们能够利用上下文来解决参考中的歧义。
translated by 谷歌翻译
In this paper, we address the problem of image splicing localization with a multi-stream network architecture that processes the raw RGB image in parallel with other handcrafted forensic signals. Unlike previous methods that either use only the RGB images or stack several signals in a channel-wise manner, we propose an encoder-decoder architecture that consists of multiple encoder streams. Each stream is fed with either the tampered image or handcrafted signals and processes them separately to capture relevant information from each one independently. Finally, the extracted features from the multiple streams are fused in the bottleneck of the architecture and propagated to the decoder network that generates the output localization map. We experiment with two handcrafted algorithms, i.e., DCT and Splicebuster. Our proposed approach is benchmarked on three public forensics datasets, demonstrating competitive performance against several competing methods and achieving state-of-the-art results, e.g., 0.898 AUC on CASIA.
translated by 谷歌翻译
In this paper, we introduce MINTIME, a video deepfake detection approach that captures spatial and temporal anomalies and handles instances of multiple people in the same video and variations in face sizes. Previous approaches disregard such information either by using simple a-posteriori aggregation schemes, i.e., average or max operation, or using only one identity for the inference, i.e., the largest one. On the contrary, the proposed approach builds on a Spatio-Temporal TimeSformer combined with a Convolutional Neural Network backbone to capture spatio-temporal anomalies from the face sequences of multiple identities depicted in a video. This is achieved through an Identity-aware Attention mechanism that attends to each face sequence independently based on a masking operation and facilitates video-level aggregation. In addition, two novel embeddings are employed: (i) the Temporal Coherent Positional Embedding that encodes each face sequence's temporal information and (ii) the Size Embedding that encodes the size of the faces as a ratio to the video frame size. These extensions allow our system to adapt particularly well in the wild by learning how to aggregate information of multiple identities, which is usually disregarded by other methods in the literature. It achieves state-of-the-art results on the ForgeryNet dataset with an improvement of up to 14% AUC in videos containing multiple people and demonstrates ample generalization capabilities in cross-forgery and cross-dataset settings. The code is publicly available at https://github.com/davide-coccomini/MINTIME-Multi-Identity-size-iNvariant-TIMEsformer-for-Video-Deepfake-Detection.
translated by 谷歌翻译
NLP研究的最新突破,例如变压器模型的出现,无疑促进了多项任务的重大进步。但是,很少有作品研究其评估策略的鲁棒性和解释性问题。在这项工作中,我们研究了高性能预训练的语言模型的行为,重点是视觉词汇的语义相似性。首先,我们满足了对可解释的评估指标的需求,这是理解检索实例的概念质量所必需的。我们提出的指标在地方和全球层面提供了宝贵的见解,展示了广泛使用方法的无能。其次,对显着查询语义的对抗性干预措施暴露了不透明指标的漏洞,并在学习的语言表示中突出了模式。
translated by 谷歌翻译
随着基于位置的越来越多的社交网络,隐私保存位置预测已成为帮助用户发现新的兴趣点(POI)的主要任务。传统系统考虑一种需要传输和收集用户私有数据的集中方法。在这项工作中,我们展示了FedPoirec,隐私保留了联合学习方法的隐私,增强了用户社交界的功能,以获得最高$ N $ POI建议。首先,FedPoirec框架建立在本地数据永远不会离开所有者设备的原则上,而本地更新盲目地由参数服务器汇总。其次,本地推荐人通过允许用户交换学习参数来获得个性化,从而实现朋友之间的知识传输。为此,我们提出了一种隐私保留协议,用于通过利用CKKS完全同态加密方案的特性来集成用户朋友在联合计算之后的偏好。为了评估FEDPOIREC,我们使用两个推荐模型将我们的方法应用于五个现实世界数据集。广泛的实验表明,FEDPOIREC以集中方法实现了相当的推荐质量,而社会集成协议会突出用户侧的低计算和通信开销。
translated by 谷歌翻译
核毒素和eosin染色组织学图像中的核分段,分类和定量使得能够提取可解释的细胞基特征,该特征可用于计算病理(CPATH)中的下游可解释模型。然而,对不同核的自动识别面临着主要的挑战,因为有几种不同类型的核,其中一些呈现出大的内部变异性。为了帮助推动CPATH中自动核认可的前进研究和创新,我们组织了结肠核识别和计数(圆锥)挑战。挑战鼓励研究人员开发在CPATH中,在CPATH中,在CPATH中进行当前最大已知的公知的核级数据集进行分割,分类和计数,其中包含大约一半的标记的核。因此,锥形挑战利用核数量超过10倍的核,作为核识别的前一大挑战数据集。如果我们希望在临床环境中部署它们,则对输入变体具有强大的算法很重要。因此,作为这一挑战的一部分,我们还将测试每个提交算法对某些输入变化的敏感性。
translated by 谷歌翻译
可靠的图像地理定位对于若干应用来说至关重要,从社交媒体地理标记到假新闻检测。最先进的地理定位方法超越了图像从图像的地理位置估算的任务。但是,没有方法评估图像的适用性,这导致不含地理位置线索的图像的不可靠和错误的估计。在本文中,我们定义了图像定位的任务,即地理位置图像的适用性,并提出了一种选择性预测方法来解决任务。特别是,我们提出了两个新颖的选择功能,利用地理定位模型的输出概率分布来推断出不同尺度的定位。我们的选择功能与最广泛使用的选择性预测基线进行基准测试,在所有情况下都表现优于它们。通过弃权预测不可定位的图像,我们将地理位置精度从城市规模提高到70.5%,从而使当前的地理位置模型可靠地对现实世界应用。
translated by 谷歌翻译
在这项工作中,我们考虑欺骗性的欺骗性的集合愚人节(AFD)新闻文章作为欺骗检测任务的现有数据集中的有用添加。这些系列具有既定的基础事实,跨语言构建相对容易。因此,我们介绍了一个包含来自希腊报纸和新闻网站的历时的AFD和正常文章的语料库。最重要的是,我们建立了丰富的语言功能集,并与目前可用的唯一AFD系列进行了分析,并比较其欺骗性提示,这是英文。在目前的研究线程之后,我们还讨论了对这两个数据集的欺骗中的个人主义/集体主义维度。最后,我们通过测试各种单声道和Crosslingual设置来构建分类器。结果展示了AFD数据集可以有助于欺骗检测研究,并且与其他欺骗性检测工作的观察结果进行对齐。
translated by 谷歌翻译
手工姿势和形状估计研究领域的数据集和工具的数量和质量作为所做的重大进展的证据。然而,即使是迄今为止报告的最高质量的数据集,也具有注释的缺点。我们提出了一种基于可分辨率的射线跟踪的细化方法,并演示了如何具有高质量的公共可用的,双摄像机数据集(Interwand2.6m)可以成为一个更好的数据集,相对于注释质量。到目前为止,迄今未采用可分辨率的射线跟踪,特此被证明优于过去已经采用的近似替代品。为了解决缺乏可靠的地面真理,就量化评估而言,我们求助于现实的合成数据,表明我们诱导的改进确实很重要。通过视觉评估,实际数据中的实际数据也是如此。
translated by 谷歌翻译
我们可以使用机器学习来压缩图形数据吗?在图中没有排序对传统压缩算法构成了重大挑战,限制了其可达到的收益以及他们发现相关模式的能力。另一方面,大多数图表压缩方法依赖于域依赖的手工制作表示,并且无法适应不同的底层图分布。这项工作旨在建立必要的原则,无损图形压缩方法应遵循以接近熵储存下限。我们不是对图形分布进行僵化的假设,我们将压缩机作为概率模型制定,可以从数据学习并概括到看不见的实例。我们的“分区和代码”框架需要三个步骤:首先,分区算法将图形分解为子图,然后映射到我们学习概率分布的小词典的元素,最后,熵编码器转换了表示进入比特。所有组件(分区,字典和分发)都是参数化的,可以用梯度下降训练。理论上,从温和条件下理论上比较了几个图形编码的压缩质量,并证明了PNC实现了线性或二次以顶点的数量而产生的压缩增益。经验上,PNC对不同的现实网络产生了显着的压缩改进。
translated by 谷歌翻译